Reinforcement Learning Approaches to Flocking with Fixed-wing Uavs in a Stochastic Environment Approches D’apprentissage Par Renforcement Pour Les Essaims De Drones À Voilure Fixe Dans Les Environnements Stochastiques

نویسندگان

  • David Shao
  • Ming Hung
چکیده

In the past two decades, unmanned aerial vehicles (UAVs) have demonstrated their efficacy in supporting both military and civilian applications, where tasks can be dull, dirty, dangerous, or simply too costly with conventional methods. Many of the applications contain tasks that can be executed in parallel, thus can benefit in terms of effectiveness from deploying multi-UAVs working together as a force multiplier. However, to do so requires autonomous coordination among the UAVs, similar to swarming behaviors seen in animals and insects. This research looks at flocking with fixed-wing UAVs in the context of a model-free reinforcement learning problem, structured as a Markov decision process. The advantage of a model-free approach is that it can be applied to different platforms without the plant and disturbance models, which implies greater adaptability to changing environments and unforeseen situations. We propose two learning approaches that enable the agents, modeled as small fixed-wing UAVs, to learn control policies that facilitate flocking in a leaderfollower topology, while operating in a non-stationary stochastic environment. The first approach is based on Peng’s Q(λ) with a variable learning parameter, which learns through direct reinforcement learning. The second approach is based on Sutton’s Dyna-Q where on-line learning, model learning, and planning are integrated to improve sample efficiency. Our approaches are compared to existing works by evaluating the respective policies at maintaining the desired flocking behavior according to a cost function. Simulation results demonstrate that with the two proposed learning approaches, the agents are able to learn policies that facilitate flocking with a single leader, more importantly, the agents are able to adapt their policies to non-stationary stochastic environments.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Integrating Machine Learning Techniques in a Guided Discovery Tutoring Environment: MEMOCAR

This chapter presents how Machine Learning Techniques can effectively contribute to improve the quality of interactions in Guided Discovery Tutoring Environments (GDTE) . We review several approaches to integrate Machine Learning in ITS. Most of these approaches use concept learning from examples to maintain a Student Model. We go along presenting an alternative use of induction techniques to l...

متن کامل

Simulation of a UAV ground control station

In this article we present the development of a UAV ground control station simulator. We propose a module based description of the architecture of this simulator. We present the nonlinear model (six degree-of-freedom) of a fixed wing aircraft. And finally we present automatic control for a flight path. The control system is multi-layered. For fixedwing UAVs, it consists of a flight-path control...

متن کامل

Reconnaissance d'actions par modélisation du mouvement

Résumé. Cet article propose une approche utilisant les modèles de direction et de magnitude de mouvement pour détecter les actions qui sont effectuées par des êtres humains dans des séquences vidéo. Des mélanges Gaussiens et de lois de von Mises sont estimés à partir des orientations et des magnitudes des vecteurs du flux optique calculés pour chaque bloc de la scène. Les paramètres de ces modè...

متن کامل

Filtrage bayésien de la récompense

Résumé : Une large variété de schémas d’approximation de la fonction de valeur a été appliquée à l’apprentissage par renforcement. Cependant, les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d’autres domaines comme l’apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu’à présent. Cette contribution introduit un cadre de travail géné...

متن کامل

Apprentissage par Renforcement Inverse pour la Simulation d’Utilisateurs dans les Systèmes de Dialogue

Résumé : Les systèmes de dialogue sont des interfaces homme-machine qui utilisent le language naturel comme medium d’interaction. La simulation d’utilisateurs a pour objectif de simuler le comportement d’un utilisateur humain afin de générer artificiellement des dialogues. Cette étape est souvent essentielle dans la mesure où collecter et annoter des corpus de dialogues est un processus coûteux...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2015